ในโลกของคณิตศาสตร์ มีความสัมพันธ์บางอย่างที่เป็น 'สัมบูรณ์' เช่น เมื่อเส้นผ่านศูนย์กลางของวงกลมถูกกำหนดแล้ว พื้นที่ก็จะคงที่ แต่ในชีวิตจริง ความสัมพันธ์ส่วนใหญ่เป็นแบบ 'คลุมเครือ' บิดามีความสูงมาก ลูกมักจะสูงด้วย แต่ความสัมพันธ์นี้ไม่ใช่การจับคู่เดียว นี่คือความสัมพันธ์เชิงสหภาพเสน่ห์ของมันอยู่ที่มันอธิบายถึงแนวโน้มที่เกิดขึ้นระหว่างตัวแปร แต่ยังยอมรับความผันผวนโดยสุ่มได้ แผนภูมิกระจายเป็นเครื่องมือที่ช่วยจับจ้องแนวโน้มซ่อนอยู่เหล่านี้ได้อย่างแม่นยำ
การแยกแยะแนวคิดหลัก
ความสัมพันธ์เชิงสหภาพ (Correlation) หมายถึงความสัมพันธ์ที่ไม่แน่นอนระหว่างตัวแปร เมื่อตัวแปรหนึ่งมีค่าแน่นอน ตัวแปรอีกตัวยังคงมีค่าที่เป็นไปตามความสุ่ม ขณะที่ ความสัมพันธ์ฟังก์ชัน เป็นความสัมพันธ์แน่นอน โดยที่ $y$ ถูกกำหนดโดย $x$ อย่างสมบูรณ์
โดยการสังเกต แผนภูมิกระจาย (Scatter Plot)เราสามารถประเมินความสัมพันธ์ระหว่างตัวแปรได้อย่างชัดเจน:
- ความสัมพันธ์เชิงบวก (Positive): โดยรวมมีแนวโน้มไปทางขวาบน เมื่อ $x$ เพิ่มขึ้น $y$ จะเพิ่มขึ้น
- ความสัมพันธ์เชิงลบ (Negative): โดยรวมมีแนวโน้มไปทางขวาล่าง เมื่อ $x$ เพิ่มขึ้น $y$ จะลดลง
- ความสัมพันธ์เชิงเส้น: จุดข้อมูลกระจุกตัวอยู่ใกล้เส้นตรง
ความสัมพันธ์ไม่ได้หมายถึงเหตุผล! แม้ว่าแผนภูมิกระจายจะแสดงความสัมพันธ์แรง แต่อาจเกิดจากปัจจัยภายนอกหรือเพียงแค่ความบังเอิญเท่านั้น ควรใช้เหตุผลทางวิทยาศาสตร์ในการสรุปมากกว่าการสังเกตกราฟิก
1. รวบรวมพจน์ของพหุนาม: สี่เหลี่ยมจัตุรัสขนาด $x^2$ หนึ่งชิ้น, แถบสี่เหลี่ยมผืนผ้าขนาด $x$ สามชิ้น, และสี่เหลี่ยมจัตุรัสขนาด $1\times1$ อีกสองชิ้น
2. เริ่มนำพวกมันมาประกอบกันในเชิงเรขาคณิต
3. พวกมันประกอบกันได้อย่างสมบูรณ์แบบกลายเป็นสี่เหลี่ยมผืนผ้าขนาดใหญ่ขึ้น! ความกว้างคือ $(x+2)$, ความสูงคือ $(x+1)$
คำถามที่ 1
ความสัมพันธ์ระหว่างตัวแปรมีความสัมพันธ์ แต่ความเข้มข้นยังไม่ถึงระดับของความสัมพันธ์ฟังก์ชัน ความสัมพันธ์แบบนี้เรียกว่าอะไร?
ความสัมพันธ์เชิงเหตุและผล
ความสัมพันธ์เชิงสหภาพ (Correlation)
ความสัมพันธ์แบบการแปลง
ความสัมพันธ์อิสระ
ถูกต้อง! ความสัมพันธ์เชิงสหภาพอธิบายถึงความสัมพันธ์ที่ไม่แน่นอนระหว่างตัวแปร
ผิดพลาด ความสัมพันธ์ฟังก์ชันเป็นความสัมพันธ์แน่นอน ขณะที่ความสัมพันธ์ที่ไม่แน่นอนนี้เรียกว่าความสัมพันธ์เชิงสหภาพ
คำถามที่ 2
เกี่ยวกับความสัมพันธ์เชิงบวก ข้อใดต่อไปนี้ถูกต้อง?
จุดกระจายเริ่มจากด้านซ้ายบนไปยังด้านขวาล่าง
จุดส่วนใหญ่อยู่ในช่วงควอเตอร์ที่สองและสี่
เมื่อ $x$ เพิ่มขึ้น $y$ จะมีแนวโน้มเพิ่มขึ้น
ตัวแปรหนึ่งกำหนดค่าของอีกตัวแปรหนึ่ง
ถูกต้อง! ความสัมพันธ์เชิงบวกหมายถึงตัวแปรทั้งสองเปลี่ยนแปลงในทิศทางเดียวกัน และในแผนภูมิกระจายจะปรากฏเป็นแนวโน้มไปทางขวาบน
ผิดพลาด ความสัมพันธ์เชิงบวกหมายถึงเมื่อ $x$ เพิ่มขึ้น $y$ จะมีแนวโน้มเพิ่มขึ้นโดยรวม และจุดส่วนใหญ่จะอยู่ในช่วงควอเตอร์ที่หนึ่งและสาม
คำถามที่ 3
การสอบวิชาคณิตศาสตร์มัธยมปลายในเมืองหนึ่ง คะแนนการสอบเป็นไปตามการแจกแจงปกติ $N(75, 8^2)$ โดยแบ่งเกรดเป็น A, B, C, D ตามอัตราส่วน $16\%, 34\%, 34\%, 16\%$ ดังนั้นช่วงคะแนนสำหรับเกรด B ประมาณเท่าไร?
$[67, 75)$
$[75, 83)$
$[83, 100]$
$[59, 67)$
ถูกต้อง! ใน $N(\mu, \sigma^2)$ ค่า $P(\mu < X < \mu+\sigma) \approx 34\%$ โดยที่ $\mu=75, \sigma=8$ ดังนั้นเกรด B จึงสอดคล้องกับ $[75, 75+8)$ หรือ $[75, 83)$
ผิดพลาด ตามคุณสมบัติของการแจกแจงปกติ $P(\mu < X < \mu+\sigma) \approx 34\%$ และ $P(\mu-\sigma < X < \mu) \approx 34\%$ เกรด B จึงสอดคล้องกับช่วง $34\%$ ทางบวก นั่นคือจาก $75$ ถึง $75+8$
คำถามที่ 4
ตัวแปรคู่ไหนต่อไปนี้มีแนวโน้มจะแสดงความสัมพันธ์เชิงลบมากที่สุด?
ความสูงของบุตรเทียบกับความสูงของบิดา
ยอดขายสินค้าเทียบกับค่าใช้จ่ายโฆษณา
จำนวนรถยนต์ที่มีเทียบกับดัชนีคุณภาพอากาศ (AQI)
ความสูงจากระดับน้ำทะเลเทียบกับแรงดันบรรยากาศ
ถูกต้อง! ยิ่งสูงจากระดับน้ำทะเลมาก แรงดันบรรยากาศจะยิ่งต่ำลง ทั้งสองตัวแปรมีความสัมพันธ์เชิงลบ
คำแนะนำ: ความสัมพันธ์เชิงลบหมายถึงเมื่อหนึ่งตัวเพิ่มอีกตัวหนึ่งจะลดลง ยิ่งสูงจากระดับน้ำทะเลมาก ออกซิเจนและแรงดันบรรยากาศจะลดลง
คำถามที่ 5
หากจุดในแผนภูมิกระจายมีการกระจายแบบสุ่มและไม่เป็นระเบียบ เราสามารถสรุปได้ว่าตัวแปรทั้งสองนี้เป็นอย่างไร?
ความสัมพันธ์เชิงเส้น
ความสัมพันธ์เชิงลบ
ไม่มีความสัมพันธ์
ความสัมพันธ์ฟังก์ชัน
ถูกต้อง! จุดกระจายแบบไม่มีรูปแบบแสดงว่าไม่มีความสัมพันธ์ทางสถิติที่สำคัญระหว่างตัวแปร
ผิดพลาด จุดกระจายแบบไม่มีรูปแบบแสดงว่าไม่มีกฎเกณฑ์ที่ชัดเจนระหว่างตัวแปร นั่นคือไม่มีความสัมพันธ์
คำถามที่ 6
จากข้อมูลความสูงจากระดับน้ำทะเลกับจำนวนชนิดนก: เมื่อความสูงเกิน 1000 เมตร มีชนิดนกประมาณ 30-37 ชนิด และเมื่อความสูง 400-800 เมตร มีชนิดนกประมาณ 4-17 ชนิด นี่หมายความว่าอะไร?
ทั้งสองมีความสัมพันธ์เชิงลบ
ทั้งสองมีความสัมพันธ์เชิงบวก
ทั้งสองมีความสัมพันธ์ฟังก์ชันที่แน่นอน
ความสูงจากระดับน้ำทะเลไม่ส่งผลต่อจำนวนชนิดนก
ถูกต้อง! ข้อมูลแสดงว่าเมื่อความสูงจากระดับน้ำทะเลเพิ่มขึ้น จำนวนชนิดนกโดยรวมเพิ่มขึ้น จึงถือว่าเป็นความสัมพันธ์เชิงบวก
สังเกตข้อมูล: บริเวณที่มีความสูงมากมีชนิดนกมาก ขณะที่บริเวณที่มีความสูงต่ำมีชนิดนกน้อย นี่แสดงถึงแนวโน้มของความสัมพันธ์เชิงบวก
คำถามที่ 7
ข้อสรุปว่า 'หมีขาวจำนวนมากในหมู่บ้านทำให้มีเด็กเกิดมากขึ้น ดังนั้นหมีขาวทำให้เกิดลูก' ข้อผิดพลาดอยู่ที่อะไร?
ขนาดตัวอย่างเล็กเกินไป
สับสนระหว่างความสัมพันธ์กับเหตุผล
ข้อมูลบันทึกผิด
ละเลยความสัมพันธ์เชิงลบ
ถูกต้อง! ความสัมพันธ์แบบ 'เทียม' เหล่านี้มักเกิดจากสาเหตุร่วม (เช่น ขนาดหมู่บ้านใหญ่) ไม่ใช่เพราะทั้งสองสิ่งมีความสัมพันธ์เชิงเหตุและผล ความสัมพันธ์ไม่ใช่เหตุผล
ผิดพลาด แม้ว่าข้อมูลจะมีความสัมพันธ์เชิงบวก แต่ความสัมพันธ์ไม่ได้หมายถึงเหตุผล นี่เป็นการหลอกลวงทางตรรกะ
คำถามที่ 8
ความแตกต่างหลักที่สุดระหว่างความสัมพันธ์ฟังก์ชันกับความสัมพันธ์เชิงสหภาพคืออะไร?
ความสัมพันธ์ฟังก์ชันสามารถแสดงด้วยกราฟ แต่ความสัมพันธ์เชิงสหภาพไม่สามารถ
ความสัมพันธ์ฟังก์ชันเป็นความแน่นอน ขณะที่ความสัมพันธ์เชิงสหภาพไม่แน่นอน
ความสัมพันธ์เชิงสหภาพดีกว่าความสัมพันธ์ฟังก์ชันในแง่วิทยาศาสตร์
ความสัมพันธ์ฟังก์ชันมีเฉพาะความสัมพันธ์เชิงเส้นเท่านั้น
ถูกต้อง! ความแน่นอนเป็นจุดตัดระหว่างสองประเภท ฟังก์ชันคือ $x$ หนึ่งค่าจะสัมพันธ์กับ $y$ หนึ่งค่าเท่านั้น
คำแนะนำ: พิจารณาสูตรพื้นที่วงกลม (แน่นอน) กับความสัมพันธ์ระหว่างความสูงกับน้ำหนัก (ไม่แน่นอน)
คำถามที่ 9
ข้อใดต่อไปนี้อธิบายถึงความสัมพันธ์ไม่เป็นเชิงเส้น?
จุดกระจายอยู่ใกล้เส้นตรง
จุดกระจายเป็นแนวโน้มเป็นรูปพาราโบลา
จุดกระจายเป็นแนวโน้มเส้นตรงขึ้นจากซ้ายล่างไปขวาบน
จุดกระจายไม่มีรูปแบบเลย
ถูกต้อง! พาราโบลา โค้งเอ็กซ์โพเนนเชียล เป็นต้น จัดอยู่ในความสัมพันธ์ไม่เป็นเชิงเส้น
ผิดพลาด ความสัมพันธ์เชิงเส้นต้องอยู่ใกล้เส้นตรง ลักษณะการกระจายเป็นเส้นโค้งจึงเป็นลักษณะเฉพาะของความสัมพันธ์ไม่เป็นเชิงเส้น
คำถามที่ 10
ในโมเดลการถดถอยเชิงเส้นแบบเดียว แผนภูมิเศษฐ์ที่เหมาะสมที่สุดควรเป็นอย่างไร?
เศษฐ์เพิ่มขึ้นอย่างชัดเจนเมื่อตัวแปรอธิบายเพิ่มขึ้น
จุดเศษฐ์กระจายอยู่บนเส้นตรงที่มีค่าความชันไม่เป็นศูนย์
จุดเศษฐ์กระจายแบบสุ่มภายในแถบแนวนอนที่มีศูนย์กลางที่ศูนย์
ค่าเศษฐ์ทั้งหมดต้องเท่ากับศูนย์
ถูกต้อง! การกระจายเศษฐ์ที่ไม่มีรูปแบบแสดงว่าโมเดลสามารถดึงข้อมูลเชิงเส้นออกมาได้ดี ความคลาดเคลื่อนที่เหลือเป็นแบบสุ่ม
ผิดพลาด หากเศษฐ์มีรูปแบบ (เช่น รูปกรวย) แสดงว่าสมมติฐานของโมเดลอาจล้มเหลว ภายใต้สถานการณ์ที่ดีที่สุด เศษฐ์ควรเป็นการสั่นสะเทือนแบบไม่มีรูปแบบ
ความท้าทาย: กลโกงทางสถิติและการคาดการณ์
การวิเคราะห์ความสัมพันธ์เชิงสหภาพอย่างลึกซึ้ง
สถานการณ์ที่ 1: ข้อขัดแย้งของหมีขาว
ในพื้นที่หนึ่งมีหมู่บ้าน 5 แห่ง 3 แห่งมีหมีขาวจำนวนมากและมีอัตราการเกิดสูง 2 แห่งมีหมีขาวจำนวนน้อยและมีอัตราการเกิดต่ำ บางคนสรุปว่า 'หมีขาวทำให้มีเด็กเกิด' คุณเห็นด้วยไหม?
สถานการณ์ที่ 2: โมเดลการเติบโตทางเศรษฐกิจ
ตารางด้านล่างเป็นข้อมูล GDP ของพื้นที่หนึ่งในช่วงปี 1997-2006 เราต้องพิจารณา: (1) ใช้โมเดลเชิงเส้นได้หรือไม่? (2) จะคาดการณ์ GDP ปี 2017 ได้อย่างไร?
คำถามที่ 1
โปรดอธิบายเหตุผลทางวิทยาศาสตร์เกี่ยวกับข้อสรุปว่า 'หมีขาวทำให้มีเด็กเกิด'
คำตอบมาตรฐาน:
ไม่เห็นด้วยกับข้อสรุปนี้ นี่เป็นกรณีของความสัมพันธ์เทียม (Spurious Correlation)แม้จำนวนหมีขาวกับอัตราการเกิดของทารกจะมีความสัมพันธ์เชิงบวกในข้อมูล แต่ทั้งสองไม่มีความสัมพันธ์เชิงเหตุและผลโดยตรง ความสัมพันธ์นี้อาจเกิดจาก 'สาเหตุร่วม': เช่น ขนาดพื้นที่ทางภูมิศาสตร์หรือขนาดประชากรของหมู่บ้าน หมู่บ้านที่มีขนาดใหญ่จะมีแหล่งน้ำจืดกว้างขวางเพื่อให้หมีขาวอาศัยอยู่ และมีประชากรจำนวนมาก จึงทำให้อัตราการเกิดสูงขึ้น ความสัมพันธ์ไม่ได้หมายถึงเหตุผล จึงไม่สามารถสรุปว่า 'หมีขาวทำให้มีเด็กเกิด' ได้
ไม่เห็นด้วยกับข้อสรุปนี้ นี่เป็นกรณีของความสัมพันธ์เทียม (Spurious Correlation)แม้จำนวนหมีขาวกับอัตราการเกิดของทารกจะมีความสัมพันธ์เชิงบวกในข้อมูล แต่ทั้งสองไม่มีความสัมพันธ์เชิงเหตุและผลโดยตรง ความสัมพันธ์นี้อาจเกิดจาก 'สาเหตุร่วม': เช่น ขนาดพื้นที่ทางภูมิศาสตร์หรือขนาดประชากรของหมู่บ้าน หมู่บ้านที่มีขนาดใหญ่จะมีแหล่งน้ำจืดกว้างขวางเพื่อให้หมีขาวอาศัยอยู่ และมีประชากรจำนวนมาก จึงทำให้อัตราการเกิดสูงขึ้น ความสัมพันธ์ไม่ได้หมายถึงเหตุผล จึงไม่สามารถสรุปว่า 'หมีขาวทำให้มีเด็กเกิด' ได้
คำถามที่ 2
ในงานพยากรณ์ GDP หากแผนภูมิกระจายแสดงว่าอัตราการเติบโตของ GDP เพิ่มขึ้นเรื่อยๆ (แสดงแนวโน้มการเติบโตแบบเอ็กซ์โพเนนเชียล) ใช้โมเดลการถดถอยเชิงเส้นแบบเดียวเหมาะสมหรือไม่?
คำตอบมาตรฐาน:
ไม่เหมาะสม หากแผนภูมิกระจายแสดงแนวโน้มโค้งชัดเจน (เช่น การเติบโตแบบเอ็กซ์โพเนนเชียล) แสดงว่าตัวแปรมีความสัมพันธ์ความสัมพันธ์ไม่เป็นเชิงเส้นหากใช้โมเดลการถดถอยเชิงเส้นแบบเดียว (โมเดลเส้นตรง) อย่างบังคับ จะทำให้แผนภูมิเศษฐ์มีรูปแบบ (เช่น รูปตัว U หรือตัว U กลับ) ความแม่นยำในการพยากรณ์ลดลงอย่างมาก และไม่สามารถอธิบายลักษณะการเติบโตอย่างรวดเร็วของ GDP ตามเวลาได้อย่างถูกต้อง ควรพิจารณาแปลงข้อมูลด้วยลอการิธึมเพื่อให้กลายเป็นความสัมพันธ์เชิงเส้น หรือสร้างโมเดลการเติบโตแบบเอ็กซ์โพเนนเชียลแทน
ไม่เหมาะสม หากแผนภูมิกระจายแสดงแนวโน้มโค้งชัดเจน (เช่น การเติบโตแบบเอ็กซ์โพเนนเชียล) แสดงว่าตัวแปรมีความสัมพันธ์ความสัมพันธ์ไม่เป็นเชิงเส้นหากใช้โมเดลการถดถอยเชิงเส้นแบบเดียว (โมเดลเส้นตรง) อย่างบังคับ จะทำให้แผนภูมิเศษฐ์มีรูปแบบ (เช่น รูปตัว U หรือตัว U กลับ) ความแม่นยำในการพยากรณ์ลดลงอย่างมาก และไม่สามารถอธิบายลักษณะการเติบโตอย่างรวดเร็วของ GDP ตามเวลาได้อย่างถูกต้อง ควรพิจารณาแปลงข้อมูลด้วยลอการิธึมเพื่อให้กลายเป็นความสัมพันธ์เชิงเส้น หรือสร้างโมเดลการเติบโตแบบเอ็กซ์โพเนนเชียลแทน
✨ ประเด็นหลัก
ตัวแปรมีความสัมพันธ์กัน,ไม่ใช่การจับคู่เดียว,แนวโน้มของจุดกระจาย,เผยความจริง។ซ้ายล่างไปขวาบน,ความสัมพันธ์เชิงบวก,อย่าเข้าใจผิดว่าความสัมพันธ์เป็นเหตุผล។
💡 แยกแยะ 'ความแน่นอน' กับ 'แนวโน้ม'
ความสัมพันธ์ฟังก์ชันคือการจับคู่แน่นอน $y=f(x)$; ความสัมพันธ์เชิงสหภาพคือ 'แนวโน้มโดยรวม + การสั่นสะเทือนแบบสุ่ม'
💡 ความรู้สึกแรกจากการดูแผนภูมิกระจาย
สังเกตลักษณะของจุดกระจาย ถ้าจุดเกาะใกล้เส้นตรงแสดงว่าความสัมพันธ์แข็งแรง ถ้าจุดกระจายทั่วทุกทิศทางแสดงว่าความสัมพันธ์อ่อน
💡 กฎของควอเตอร์
จุดที่มีความสัมพันธ์เชิงบวกส่วนใหญ่อยู่ในควอเตอร์ที่ I และ III (เมื่อเทียบกับจุดเฉลี่ยตัวอย่าง); จุดที่มีความสัมพันธ์เชิงลบส่วนใหญ่อยู่ในควอเตอร์ที่ II และ IV
💡 ระวังตัวแปรแฝง
เมื่อเห็นตัวแปรสองตัวมีความสัมพันธ์ ให้ลองคิดก่อนว่า อาจมีตัวแปรที่สามแฝงอยู่เบื้องหลังที่ควบคุมทั้งสองตัวพร้อมกันหรือไม่?
💡 กฎการประมาณการของระยะการแจกแจงปกติ
在 $N(\mu, \sigma^2)$ 中,$1\sigma$ 区间约占 $68\%$,$2\sigma$ 约占 $95\%$。这是划定等级的重要依据。